端到端(E2E)自动语音识别(ASR)系统通常难以识别出罕见的单词,这在训练数据中出现了很少。一种有希望的方法,提高了这种稀有词语的识别准确性,是在推理的推理中锁定在个性化/上下文信息上。在这项工作中,我们通过利用这种上下文信号,提出了一种新颖的上下文传感器传感器(CATT)网络,其通过利用这种上下文信号来改善基于最先进的变换器的ASR系统。具体地,我们提出了一种基于多主题的上下文偏置网络,其与ASR子网的其余部分共同训练。我们探讨了对编码上下文数据的不同技术,并创建最终注意上下文向量。我们还利用BLSTM和预借用的基于BERT的模型来编码上下文数据并指导网络培训。使用内部现场数据集,我们示出了使用基于BERT的上下文编码器的CATT,可提高基线变压器传感器的字错误率,并且分别优于现有的深层上下文模型24.2%和19.4%。
translated by 谷歌翻译
Image annotation is one essential prior step to enable data-driven algorithms. In medical imaging, having large and reliably annotated data sets is crucial to recognize various diseases robustly. However, annotator performance varies immensely, thus impacts model training. Therefore, often multiple annotators should be employed, which is however expensive and resource-intensive. Hence, it is desirable that users should annotate unseen data and have an automated system to unobtrusively rate their performance during this process. We examine such a system based on whole slide images (WSIs) showing lung fluid cells. We evaluate two methods the generation of synthetic individual cell images: conditional Generative Adversarial Networks and Diffusion Models (DM). For qualitative and quantitative evaluation, we conduct a user study to highlight the suitability of generated cells. Users could not detect 52.12% of generated images by DM proofing the feasibility to replace the original cells with synthetic cells without being noticed.
translated by 谷歌翻译
一方面确定适当数量的注意力头,另一方面,变压器编码器的数量是使用变压器体系结构的计算机视觉(CV)任务的重要选择。计算实验证实了期望参数的总数必须满足过度确定的条件(即,约束数量大大超过了参数数量)。然后,可以预期良好的概括性能。这设置了可以选择头部数量和变压器数量的边界。如果可以假定上下文在要分类的图像中的作用很小,那么使用多个头部数量较少(例如一个或两个)的多个变压器是有利的。在分类其类可能在很大程度上取决于图像中上下文的对象(即补丁取决于其他补丁的含义)时,头部数量与变压器的含义同样重要。
translated by 谷歌翻译
在深度学习社区中,对单精度浮点算术的承诺是广泛的。为了评估该承诺是否合理,计算精度(单个和双重精度)对结合梯度(CG)方法(二阶优化算法)和RMSProp(一阶算法)的优化性能的影响调查。具有一到五个完全连接的隐藏层以及中等或强的非线性的神经网络的测试已针对均方误差(MSE)进行了优化。已经设置了培训任务,以使其最低限度为零。计算实验已经披露,只要线路搜索找到改进,单精度就可以保持(超级线性收敛),并具有双重精确。诸如RMSPROP之类的一阶方法不会受益于双重精度。但是,对于中等非线性任务,CG显然是优越的。对于强烈的非线性任务,两种算法类别仅在与输出方差相关的均方误差方面发现解决方案相当差。每当解决方案有可能对应用程序目标有用时,具有双浮点精度的CG都会出色。
translated by 谷歌翻译
磁共振光谱成像(MRSI)是研究人体代谢活动的宝贵工具,但目前的应用仅限于低空间分辨率。现有的基于深度学习的MRSI超分辨率方法需要培训一个单独的网络,为每个升级因素训练,这是耗时的,并且记忆力低下。我们使用过滤器缩放策略来解决这个多尺度的超分辨率问题,该级别的缩放策略根据升级因素调节卷积过滤器,以便可以将单个网络用于各种高尺度因素。观察每个代谢物具有不同的空间特征,我们还根据特定的代谢产物调节网络。此外,我们的网络基于对抗损失的重量,因此可以在单个网络中调整超级分辨代谢图的感知清晰度。我们使用新型的多条件模块结合了这些网络条件。实验是在15名高级神经胶质瘤患者的1H-MRSI数据集上进行的。结果表明,所提出的网络在多种多尺度超分辨率方法中实现了最佳性能,并且可以提供具有可调清晰度的超级分辨代谢图。
translated by 谷歌翻译
针对组织病理学图像数据的临床决策支持主要侧重于强烈监督的注释,这提供了直观的解释性,但受专业表现的束缚。在这里,我们提出了一种可解释的癌症复发预测网络(Ecarenet),并表明没有强注释的端到端学习提供最先进的性能,而可以通过注意机制包括可解释性。在前列腺癌生存预测的用例上,使用14,479个图像和仅复发时间作为注释,我们在验证集中达到0.78的累积动态AUC,与专家病理学家(以及在单独测试中的AUC为0.77放)。我们的模型是良好的校准,输出生存曲线以及每位患者的风险分数和群体。利用多实例学习层的注意重量,我们表明恶性斑块对预测的影响较高,从而提供了对预测的直观解释。我们的代码可在www.github.com/imsb-uke/ecarenet上获得。
translated by 谷歌翻译
注释数据,尤其是在医疗领域,需要专家知识和很多努力。这限制了可用医疗数据集的实验量和/或有用性。因此,发展策略以增加注释的数量,同时降低所需的域知识是感兴趣的。可能的策略是使用游戏,即即将注释任务转换为游戏。我们提出了一种方法来游戏从病理整体幻灯片图像中注释肺部流体细胞的任务。由于该域是未知的非专家注释器所知,我们将用视网网架构检测到的细胞图像到花卉图像域。使用Compygan架构执行此域传输,用于不同的小区类型。在这种更科的域名中,非专家注释器可以(t)要求在俏皮的环境中注释不同种类的花朵。为了提供概念证据,该工作表明,通过评估在真实单元图像上培训的图像分类网络并在由Cyclegan网络生成的小区图像上测试的图像分类网络可以进行域传输。分类网络分别达到原始肺液体细胞和转化肺部流体细胞的精度​​为97.48%和95.16%。通过这项研究,我们为使用自行车队进行了未来的游戏研究的基础。
translated by 谷歌翻译
我们考虑在离散观察点上测量的功能数据。通常通过额外的噪声测量这种数据。我们在本文中探讨了这种类型数据的因子结构。我们表明潜伏信号可以归因于相应因子模型的公共组件,并且可以通过来自因子模型文献的方法借用方法来估计。我们还表明,在采取这种多变量而不是“功能”的角度之后,可以准确地估计在功能数据分析中发挥关键作用的主成分。除了估计问题之外,我们还解决了对IID噪声的零假设的测试。虽然这个假设在很大程度上在文献中主要是普遍存在的,但我们认为它通常不切实际,并且不受残留分析的支持。
translated by 谷歌翻译